Selección Dinámica de Tokens de Pensamiento para Razonamiento Eficiente
DynTS selecciona solo tokens clave en modelos de razonamiento grandes para reducir memoria y acelerar inferencia, manteniendo precisión. Optimiza eficiencia computacional.
DynTS selecciona solo tokens clave en modelos de razonamiento grandes para reducir memoria y acelerar inferencia, manteniendo precisión. Optimiza eficiencia computacional.
Descubre YAQA: algoritmo de redondeo adaptativo que reduce el error de cuantización un 30% frente a GPTQ. Cotas de error garantizadas sin coste de inferencia.
MesaNet optimiza el entrenamiento en tiempo de prueba para mejorar el rendimiento en secuencias largas. Menor perplejidad y mayor eficiencia.
Descubre EmaQ y EmaQ-LT: cuantificación precisa para redes neuronales con dominios múltiples y desbalance, mejorando la eficiencia en dispositivos limitados.
Descubre cómo el marco STS evita el colapso de atención en VLMs, mejorando la diversidad estructural y la relevancia semántica de tokens visuales.
¿Quieres certificar robustez en IA sin el coste del muestreo Monte Carlo? RRISE logra precisión comparable con solo un pase de red.
EntQuant comprime modelos de 70B parámetros en solo 10 minutos sin datos de calibración, alcanzando SOTA en compresión extrema a 2 bits con codificación de entropía.
Descubre cómo SALAAD reduce el consumo de memoria en modelos de lenguaje grandes usando estructuras dispersas y de bajo rango, permitiendo un despliegue flexible sin reentrenamiento.
Eso-LMs: modelos de lenguaje que combinan AR y MDM con atención causal y caché KV, permitiendo generación paralela e inferencia eficiente. Nuevo estado del arte.
Descubre cómo LatentMAS permite a agentes LLM colaborar directamente en el espacio latente, mejorando precisión hasta 14.6% y acelerando inferencia 4x sin necesidad de texto. Código abierto.
Descubre CRAFT, un marco que replica expertos con granularidad fina para mejorar el rendimiento de modelos MoE hasta un 20% sin modificar el modelo.
Descubre cómo la parada bayesiana óptima permite obtener respuestas consistentes de LLM usando menos muestras, ahorrando hasta un 50% en costos de inferencia.
Descubre DyLLM, un marco de inferencia sin entrenamiento que acelera hasta 9.6x los LLMs de difusión seleccionando solo tokens relevantes. Ideal para razonamiento y código.
Soft-NBCE optimiza la inferencia de LLMs en contextos largos: fusión de fragmentos con pesos de entropía y destilación de consistencia para mayor precisión en razonamiento multi-salto.
Murmur: sistema de inferencia para ASR de larga duración que reduce la latencia 4.2x sin degradar la precisión. Atención dispersa y evicción de caché KV.
Descubre cómo ProbeScale optimiza SLMs mediante análisis de sondas, seleccionando subredes que reducen hasta 10 veces los parámetros sin perder rendimiento.
Descubre Zamba2-VL, modelos de visión-lenguaje basados en Mamba2 que ofrecen rendimiento competitivo con un orden de magnitud menor en tiempo de respuesta. Ideal para edge.
<meta name=description content=BlockBatch optimiza la inferencia en modelos de difusión mediante consenso multi-escala, logrando mayor eficiencia y velocidad sin sacrificar calidad.>
Poda asimétrica de tokens para inferencia eficiente en VLM. Acelera modelos de visión-lenguaje sin sacrificar precisión. Técnica optimizada.